Une mesure de proximité et une méthode de regroupement pour l'aide à l'acquisition d'ontologies spécialisées
نویسندگان
چکیده
Résumé. Cet article traite du regroupement d’unités textuelles dans une perspective d’aide à l’élaboration d’ontologies spécialisées. Le travail présenté s’inscrit dans le cadre du projet BIOTIM. Nous nous concentrons ici sur l’une des étapes de construction semi-automatique d’une ontologie qui consiste à structurer un ensemble d’unités textuelles caractéristiques en classes susceptibles de représenter les concepts du domaine. L’approche que nous proposons s’appuie sur la définition d’une nouvelle mesure non-symétrique permettant d’évaluer la proximité entre lemmes, en utilisant leurs contextes d’apparition dans les documents. En complément de cette mesure, nous présentons un algorithme de classification non-supervisée adapté à la problématique et aux données traitées. Les premières expérimentations présentées sur les données botaniques laissent percevoir des résultats pertinents pouvant être utilisés pour assister l’expert dans la détermination et la structuration des concepts du domaine.
منابع مشابه
Choix d'une mesure de proximité discriminante dans un contexte topologique
Résumé. Les résultats de toute opération de classification ou de classement d’objets dépendent fortement de la mesure de proximité choisie. L’utilisateur est amené à choisir une mesure parmi les nombreuses mesures de proximité existantes. Or, selon la notion d’équivalence topologique choisie, certaines sont plus ou moins équivalentes. Dans cet article, nous proposons une nouvelle approche de co...
متن کاملSélection topologique de variables dans un contexte de discrimination
Résumé. En apprentissage automatique, la présence d’un grand nombre de variables explicatives conduit à une plus grande complexité des algorithmes et à une forte dégradation des performances des modèles de prédiction. Pour cela, une sélection d’un sous-ensemble optimal discriminant de ces variables s’avère nécessaire. Dans cet article, une approche topologique est proposée pour la sélection de ...
متن کاملClassification non supervisée floue des termes basée sur la proximité pour les systèmes de recherche d'information
RÉSUMÉ. Le regroupement des termes basé sur la mesure de proximité est une stratégie menant efficacement à trouver les documents pertinents. Contrairement à ce qu’ont montré les études récentes qui ont utilisé la proximité des termes pour le classement des documents, le processus de recherche d’information est entièrement revu dans ce travail en ce qui concerne les étapes d’indexation et d’inte...
متن کاملLes défis posés par le Web sémantique
RÉSUMÉ. Le Web sémantique est une vision du Web de demain où l'interopérabilité entre les ressources distribuées sur le Web, aujourd'hui très hétérogènes, sera facilitée par un marquage sémantique de ces ressources à l'aide d'ontologies. Une ontologie est un vocabulaire structuré de noms de concepts et de propriétés définis précisément à l'aide d'un langage formel non ambigu. Dans la vision du ...
متن کاملAmélioration d'un corpus de requêtes à l'aide d'une méthode non-supervisée
RÉSUMÉ. Cet article présente une méthode d’amélioration d’un corpus de requêtes par regroupement des mots qui sont graphiquement similaires. L’approche utilisée est basée sur une distance d’édition normalisée et sur des propriétés statistiques distributionnelles; elle ne s’appuie sur aucune base de connaissances. Cette méthode a été développée pour résoudre un problème industriel: l’amélioratio...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 2006